开源大模型正在“杀死”闭源?
前沿科技,数智经济
“OpenAI不足为惧,开源会慢慢赶上来。”
大模型开源,开的是什么?
大模型开源,开的是什么?
光锥智能梳理后发现,目前,大模型厂商和创业公司在开源和闭源的选择上,一共有三条路径:
一是完全闭源,这类代表公司国外有OpenAI的GPT-3.5、GPT-4,国内有百度的文心大模型;
二是先闭源再开源,这类代表公司有阿里云的通义千问,智谱AI开源GLM系列模型;
三是先开源再闭源,这类代表公司有百川智能的Baichuan-7B、Baichuan-13B。
现在中国市场上能够主动开源大模型,且提供商业许可的企业数量还比较有限,主要公司包括了以开源为切入的百川智能、大模型厂商代表阿里、大模型初创公司代表智谱AI以及走精调Llama 2路线的虎博科技。
这从侧面也说明了一个问题,大模型开源并不是没有门槛,相反开源对一家企业的基础技术能力要求十分高,比如智谱AI的GLM-130大模型是去年亚洲唯一入选斯坦福大学评测榜的大模型;阿里通义千问大模型在IDC的“AI大模型技术能力评估测试”中获得了6项满分。
如果再进一步将以上的公司分类,可以归为两类,一类是走自研大模型开源路线,一类是走Llama 2路线。
这两条路线在国际上也十分典型,譬如走自研模型开源路线的Stability AI,已经陆续开源了Stable DiffusionV1、StableLM、Stable Diffusion XL(SDXL)1.0等模型,凭一己之力撑起了文生图开源领域;另一类如中东土豪研究院就死盯住Llama 2,在其基础上继续做大参数、做强性能, Llama 2开源50天后,地表最强开源模型Falcon 180B横空出世, 霸榜Hugging Face。
不过,这两条路线也不是完全泾渭分明,Llama 2的开源也进一步促进了许多自研开源大模型的更新升级。8月Stability AI迅速推出类ChatGPT产品——Stable Chat,背后的大语言模型Stable Beluga就是其在两代Llama的基础上精调出来。更开放,更快迭代发展,这或许也是开源的意义。
除了逆天的Falcon,目前开源模型的参数基本都控制在7B-13B左右。大模型厂商告诉光锥智能,“目前7B-13B亿参数量是一个较为合理的开源规模”。这是基于多重因素所得出的参数量规模,如计算资源限制、内存限制、开源成本考量等。
阿里云CTO周靖人基于云厂商的角度考虑道:“我们希望企业和开发者,在不同的场景可以根据自己的需求选择不一样规模的模型,来真正地应用在自己的开发环境。我们提供更多可能性。”
谈起为何开源大模型,周靖人强调了安全性,“我们不单单只是开源大模型,更重要的是要能够呈现出各项指标的表现效果,基于此,才能够让大家去评估其中的使用风险,更加有效地进行模型应用。”
“重要的是,随着参数量的增加,模型效果提升会逐渐收敛。当模型达到一定规模后,继续增加参数对效果提升的边际效益只会下降,70-130亿参数量一般已经接近收敛状态了。”上述大模型厂商道。
光锥智能发现,除了阿里云在视觉语言模型的细分领域发布了开源大模型外,其余公司皆提供的是通用能力的大模型。这或许与大模型开源仍处于非常早期阶段有关系,但考虑到开源大模型也要落地到场景中,太过于同质化的通用大模型对企业来说也容易沦为“鸡肋”。
如何避免开源大模型重蹈覆辙,体现出开源的价值,回顾Meta接连祭出的“大招”,一条开源的路径似乎逐渐显现——构建开源大模型生态。
2月份,Meta凭借开源的Llama大模型回到生成式AI核心阵列;
5月9日,开源了新的AI 模型ImageBind,连接文本、图像 / 视频、音频、3D 测量(深度)、温度数据(热)和运动数据六种模态;
5个月后,Llama 2开源可商业,含70亿、130亿和700亿三种参数规模,其中700亿参数模型能力已接近GPT-3.5;
8月25日,Meta推出一款帮助开发人员自动生成代码的开源模型——Code Llama,该代码生成模型基于其开源大语言模型Llama 2;
8月25日,发布全新AI模型SeamlessM4T,与一般AI翻译只能从文本到文本不同,这款翻译器还能够“从语音到文本”或者反过来“从文本到语音”地直接完成翻译;
9月1日,允许开源视觉模型DINOv2商业化,同时推出视觉评估模型FACET。
可以看到,Meta开源的思路是在各个AI领域遍地开花,通过发布该领域最先进的AI开源模型,吸引更多开发者的关注和使用,壮大整个AI开源生态后来反哺业务、巩固行业地位,这就如同当年的英伟达推动GPU计算的开源策略。
当年英伟达推动GPU计算的开源化,不仅吸引了大量研究人员在Caffe、TensorFlow等框架上进行创新,也为自身GPU产品积累了大量优化经验,这些经验后来也帮助英伟达设计出了更适合深度学习的新型GPU架构。
另一方面,GPU计算的开源生态越来越繁荣后,也为其带来了巨大的市场空间,Nvidia DGX企业级的深度学习训练平台概念应运而生,为英伟达的显卡和平台销售创造了千亿级市场。
国内阿里云也在通过建设完善生态的方式,试图帮助开发者更好的用好大模型,据周靖人介绍,目前阿里云不仅有自研开源大模型,也接入了超过100个开源模型,同时打造了开源社区魔搭,更好地服务开发者和企业用户,用好、调好大模型。
开源闭源不矛盾
是手段而非目的
据外媒爆料,Meta正在加紧研发全新的开源大模型,支持免费商用,能力对标GPT-4,参数量比Llama 2还要大上数倍,计划在2024年初开始训练。
国外大模型格局看似是OpenAI“一超多强”,实则是众多公司环伺,可以预见,开源大模型对闭源的围剿,越来越步步紧逼。
结尾
结尾
光锥智能“AI交流群”已建立,
感兴趣的朋友可以添加小助手微信(GZZN2019)沟通进群。
联系我们
与主编交流、沟通请添加微信:cishicike000
商务合作请添加微信:GZZN2019
转载开白请留言或添加微信:GZZN2019
※添加时请备注公司+姓名+来意
「往期精彩推荐」
深度研报:
AI芯片厂商|存算一体|存储行业|信创战略|2022智能汽车盘点(上)|2022智能汽车盘点(下)|化学电池|人工智能机器人|碳中和|低代码/无代码|VR/AR|国产数据库|碳中和氢能|协同办公|RISC-V芯片
AI大爆炸:
硅谷AI融资|数字人|消费物联网|京东大模型|腾讯云MaaS|世界人工智能大会|阿里云|ChatGPT|AI并购潮|云知声山海大模型|模型安全|大模型创业|国产大模型|百度文心一言|生成式AI|火山方舟|AI面试|360大模型| SaaS观察|
云计算:
“东数西算”|算力革命|华为昇腾|云厂商|云数据库|阿里云算力|亚马逊云|华为云|云智一体|云存储|云原生数据仓库|云大厂交战“低代码”|微软云|云原生|汽车云
汽车智能化:
上海车展|禾赛科技上市|港口自动驾驶|零跑上市|高通|宏景智驾|威马上市|小米造车|车企自研自动驾驶|自动驾驶黄金拐点|高精地图|无人重卡|飞行汽车|港口自动驾驶|宏景智驾|硅谷明星无人车wayoo|无人公交
数智化案例:
投稿、开白、
商务合作、应聘
请添加小助手
更多精彩内容
关注商业数据派